\chapter{抽样}

\section{抽样简介}

    调查之目的即在搜集数据，由数据中获得讯息，以对未知状况或现象，加以了解，提供决策参据。调查方式可采普查或抽样调查。普查：即对欲研究对象(母体)中每一份子均加以调查。抽样调查：由所欲研究对象(母体)中抽取一部分份子(样本)，加以调查搜集数据。

普查之优缺点与必要性：

普查优点：
  (1)包罗母体中每一份子，最能陈示母体状况。
　(2)可做各细分特性之统计分析。
　(3)不致产生抽样误差。

普查缺点：
　(1)耗费大量人力，物力，财力。
　(2)整理时间过长，统计结果常有过期之憾。
　(3)调查问卷不易深入。
　(4)易导致非抽样误差。

普查必要性：
　(1)基本国势之陈示。
　(2)各种抽样调查之母体。
　(3)细分特性之陈示。
　(4)各种抽样调查估计之权数。

抽样调查：

    抽样调查系自调查对象之母体中抽取一部份个体，加以观察，然后再推估母体之现象。抽样调查成为科学的调查方法，乃是由于推测统计理论的发展，加上近年来统计的重要性倍增，依据调查资料与现存事实进行之交叉分析结果颇获各方关心，主要原因须归功于统计在经济发展中所发挥的功能，所以统计学中的抽样调查不仅是一门学问，业已成为研究社会问题与经济现象的主要工具之一。

\subsection{抽样之基本观念}
抽样不过是一个方法、手段、其最终目标仍在推论。
对于各种抽样方法，建立直觉的了解，以及探求其优点及限制。
注意各种抽样方法之观念及使用时机。
不要见树而不见林。(注意样本之代表性)

\subsection{抽样之基本原则}
所抽样本能以代表母体。(代表性)
以样本讯息估计母体之特性，要尽可能精确，并且可测度其可信度(精确性)。
取样成本要尽量少。(成本低)
配合不同之母体状况及行政限制下，采取适宜方法(即考虑实务问题)。亦即如何达到快速、准确、具代表性而又能配合实务。(可行性)

\subsection{抽样的步骤}
建立母体	→	分析母体→	决定抽样方法	→	选定估计量	→	估计量的变异数	→	信赖区间→	决定样本大小	→	样本抽出方式	→	样本与母体差异分析

\subsection{抽样调查优点}
抽样调查可节省人力与财力。
抽查可缩短调查与整理时间。
抽查所抽出之样本可做更详细之调查。
抽查可迅速获得调查结果。
可配合研究特性与机动性之行政措施。
本章的概述最主要目的是作为导读之用，期望读者在念完本章节后对抽样调查有些许初步的认识与兴趣，并在往后各章内容中均有非常详细的介绍。现在，就让我们一同进入抽样调查的世界里，一探抽调的神奇之美。


\section{抽样方法之分类}

抽样方法分类：可粗分为非概率抽样与概率抽样。
\subsection{非概率抽样}
(一)非概率抽样：亦即样本不按照其概率予以抽出，而是由抽样者之主观抽出或自愿样本。
优点：在某些调查时，有其必要性。
缺点：(1)难以评断样本之代表性。
(2)无法估计精确度。
(3)样本偏差往往较大。
非概率抽样之种类：
便利样本(偶然样本)
   事先不预定样本，碰到即问或自动回答者。如街头访问或主动打电话回答问题者。缺点：注意样本之偏激性及两极化。
立意样本(判断样本)
   由抽样者立意抽取之样本。如民间代表、意见领袖、学者、专家或代表性之样本。
滚式样本(辐射样本)
   利用样本寻找样本，亦即利用样本之滚雪球方式或辐射力抽取样本。如都市中之原住民抽样。使用时机：可用于当样本不易取得时，或针对特殊族群之调查。
配额样本：
   按母体某些特性予以配置样本，但取样时却由调查员任意抽取。非概率抽样有时虽然可予使用，惟在其结果之引用上，要特别注意，亦即其结果之参考性大于其实际之代表性。
\subsection{概率抽样}
(二)概率抽样：抽取之样本是按照样本之概率随机抽出。
优点：
样本较具代表性。
可计算估计之精确度。
可随不同之抽样设计采取不同之抽样方法。
随之不同之抽样方法，采取相互配合之估计方法。
概率抽样之种类：
简单随机抽样
   不对母体加以任何修饰或分割，而使每一样本均有相同之被抽中概率。
分层随机抽样
   将母体按照某些特性，分成数个不重迭的组群，这些组群即称为层，而再由各层分别抽取样本。
系统抽样
   将母体之元素按顺序编号后，有系统的每隔一定间隔抽取一个样本之方法。
集体抽样
   将母体中相邻近之个体排成为一集体，而以集体为抽样单位，即每一抽样单位为一集体之抽样单位。
两段集体抽样
   首先抽出一些样本集体，再由样本集体内抽出部分基本个体。
分层集体抽样
   将母体内之集体予以分层后，再由各层抽取样本。

简单随机抽样法(simple random sampling)

简单随机抽样是一种最基础且最简便的抽样方法。它的优点是(i)当母体底册完整时，直接由母体中抽出样本，方法简单；和(ii)每一单位被抽中的概率均相等，参数的估计较简单。而它的限制是(i)母体底册不易取得，或取得很费时，费力且费钱；(ii)母体内样本单位太多时，作业不方便；(iii)样本分配较分散，行政作业较不易；和(iv)样本代表性恐有不足(尤其当样本点差异大时或重要性不同时)。因此，使用简单随机抽样的最佳时机，便是当(i)母体内样本单位不多，且有完备名册，可兹编号时；(ii)母体内样本单位间的差异不大时(对研究的目的而言)；和(iii)对母体信息无法充份获得时。简单随机抽样法的准确度会受下列二因素的影响，即(i)母体本身的变异，和(ii)样本的大小。以下以算术平均值为例来分别说明。

分层抽样法(stratified sampling)
按照某种原因或其他一定的标准，将所含抽样单位个数分别定为 ，但 ；这些分枝的母体简称为层(stratum)。再以简单随机抽样法，分别从各层独立的抽出 个单位组成一个含有 个单位的样本，根据此样本中各单位的平均 与母体各层单位的个数 去推估母体平均。亦即 ，其中N为母体中单位总数，而h为层号。

往往调查对象的母体中，包含每一抽样单位附随的某种特性的变量间具有很大的变异性，即分散度很大，或具有歪度很大的分布。此时倘若置的不理，而采用简单随机抽样法从整个母体中抽出样本，则可能在分布两端的单位便没有被抽中的机会，或者抽出太多极端的样本，因而失去母体的代表性，以致估计的准确度不高。反之，假如按照母体分布的状态，将其抽样单位分为大、小二层或更细分的，使各层内的单位间的变异程度较低，而各层间的变异程度较高；根据变异数分析原理，层间变异愈大则层内变异愈小，因此各层样本的代表性将会增高，将其合并以估计整个母体总合或平均值必能获得准确度很高的估计结果。

分层随机抽样在实际应用上是最常用的一种抽样方法。通常欲调查的母体内各个抽样单位，当其间变异甚大，即分散度很大或具有歪度(skewness)时，若采用简单随机抽样，则可能造成分散在两端的样本将不被抽中或抽中太多，如此抽出的样本不具高度代表性，反而使估计误差过大，因此有使用分层随机抽样的必要。举例来说，欲估计超级市场的平均营业额，即要对超级市场按超市大小分层后再作抽样。

分层随机抽样法的优点是(i)可增加样本代表性；(ii)可提高估计的确度；(iii)可分别获得各层的讯息，并做各层间的比较分析；(iv)可在各层设立行政单位，以便于执行；和(v)可视各层情形，采取不同的抽样方法。而它的限制是(i)分层变量的选取(要与所欲估计的特征值具有高度相关)；(ii)层数的厘定(要适当并配合母体的分配状况)；(iii)分层标准的决定(各层不能有重迭现象)；(iv)各层样本的配置方法；和(v)分层后，样本数据的整理及估计较复杂。因此，使用分层随机抽样法的最佳时机，便是当(i)母体内样本单位的差异较大时；和(ii)分层后能达到层间差异大，层内差异小的原则。原则上要使层内变异小，而层间变异大；各层不能有重迭现象。

分层随机抽样法的配置问题
由前面所述我们已经知道当分组得宜时，分层随机抽样法较简单随机抽样法的准确度来的大，然而在总样本个数n确定的情况下，各层究竟应该分别抽取多少，才能获得最高的准确度？进一步的说，也就是在固定的成本下，要如何使准确度达至最高？而在要求的准确度的下，又如何使成本减至最低？这些皆是属于配置上的问题。一般的配置方法可分为均等配置、比例配置、Neyman配置和最适配置等四种，下面我们将以民国六十四年度二期作坪割资料各乡镇各乡镇应抽的农家数(或坵田数)为例，将此四法分别加以说明并讨论。

(1)均等配置(equal allocation)
在所有配置法中，最简单的就是将总样本个数平均配置于各层的中。换句话说，也就是由各层中抽取相同个数的样本，此即所谓均等配置。在均等配置中，第h层的样本数为
  ( )
其中n为总样本个数，L为总层数。以坪割为例，民国六十四年二期作所采用的即是一种均等配置，亦即在29个乡镇中，每乡镇均抽取4小区，便构成了n=116的样本。
由于均等配置并未讨论各层本身所含单位的多寡及层内变异的大小，自然它的准确度一般说来不会很高，因此也只适用于各层大小略为相等且变异程度相似的母体下使用。

(2)比例配置(proportional allocation)
比例配置是按照各层含有单位数多寡的比例来配置样本的，用公式来表达即是

也就是
 	,                  (4.3.1)
其中 为第h层所含有的单位数( )。
在坪割计划中，每一小区包括10到20公顷的水稻耕地，取其中间值我们以15公顷为每一小区面积，那么以15公顷来除该乡的水稻耕地总面积即为该乡所拥有的小区数，也就是 值，即 (第h乡的水稻栽培面积)。为了与前面均等配置做一比较，我们仍以29×4=116作为总样本个数(也就是n值)，而N为族群大小( )，将 、n、N等代入式(4.3.1)中即可得各乡镇所应抽取的小区数 。若以宜兰县罗东镇为例，而罗东水稻栽培面积1429.40公顷，除以15得 为95，各乡镇计算结果得 ，则罗东镇应抽取的小区数为 。

除了比例配置外，尚有其他更精细完备的配置方法，如后述的Neyman配置、最适配置等。但是比例配置法也有它的优点，即(i)比例配置法不须要知道各层内的变异数；(ii)比例配置法未涉及成本，因此各层的单位抽样成本也不必明了；和(iii)由其他配置法(如Neyman配置、最适配置)所获得的准确度的提高，并不是很大，但手续却较繁杂。当然若各层内变异程度相差很大时，由Neyman或最适配置所得的准确度的提高超过比例配置法的简便时，比例配置法是不宜被采用的，但无论如何比例配置法是一种简单而经常被使用的配置方法。

(3)最适配置法(optimum allocation)
最适配置法是在总预算成本为C，样本个数固定为n，第h层单位抽样成本为 的情况下，欲使平均的变异数为最小时所采用的一种配置方法。最适配置中第h层所须抽出的样本数为
 					(4.3.2)
其中 为第h层的层内均方。

由上列公式我们可看出 是和 成正比例的，也就是说当 或 大时，第h层就必须多抽些样本。这意义是显而易见的，即当层内各单位间的差异越大，越是须要较大的样本才能具有代表性。由上式我们也可看出 是和 成反比的，也就是应该从 较小的层内抽取较多的样本个数。若各层单位的抽样成本相等，且变异情形相似，则式(4.3.2)中的 和 便可略去，而简化为 ，即成为比例配置法。

由「最适配置」这个名词的表面意义，我们即可知道在者四种配置法中它是最适的，因为它不但考虑了成本，更获得了最高的准确度；只是一般说来每层的单位抽样成本很难正确的计算，像坪割数据就是因为没有成本的函数，所以不能以最适配置法计算出每乡镇应抽出的最适小区数。
(4) Neyman配置(Neyman allocation)
在某些情形下，各层的单位抽样成本 差异不大，因此式(4.3.2)中的 可省略而变成了
 	.						(4.3.3)
此法首先由Neyman提出，故称为Neyman配置。以坪割计划中各乡镇所的小区数为例， 和比例配置时相同，n也仍是116。只是另外必须再计算各乡镇内小区变异数，开方后得 ，由计算 ，即可获得Neyman分配下各乡镇所应采取的小区数。

由以上所述我们可以下一结论：最适配置是最完美的配置方法，但当各层单位抽样成本未知时可采用Neyman配置，又当各层内变异程度约略相似时可采用比例配置。而由坪割计算结果我们得到比例配置的相对效率，是均等配置的1.556倍，Neyman配置是均等配置的2.529倍，Neyman配置是比例配置的1.625倍，更可作为配置法重要性的一个验证。由于比例配置法在实务上使用最多，故下例中便此方法加以介绍。

系统抽样法(systematic sampling)
有时母体内的单位数过多，抽样繁复费时，或有时母体内的单位数不能确定时；以上二种情形若采随机抽样法，则太繁杂又不太可能，因此可采系统抽样法。整体而言，系统抽样是相当简捷的一种抽样方法。举例来说，假设母体内有50,000个抽样单位，而只须抽出100个单位组成样本时，即可使用系统抽样法。又如要对离境观光客的观感作调查，则可利用在机场访问以成为系统抽样的样本。

系统抽样法的优点是(i)在抽取样本的过程中，很容易完成抽样工作；(ii)通常可使样本普遍的散布于母体内，使样本更具代表性；和(iii)在某些条件下，系统抽样可取代简单随机抽样。而本法的限制则是(i)对母体状况宜略有所了解；(ii)避免系统样本内的样本单位趋于一致；(iii)不易计算估计量的变异数，和(iv)避免母体内样本单位特征值的周期性变动。使用系统抽样时最好是当(i)母体内的样本单位，按有兴趣的特征值而言是随机的或按大小排列的；(ii)母体内单位数过多，而抽取的样本又较多时；和(iii)母体内的单位数不能确定时。

要特别注意的是，单一系统抽样无法计算变异数，而是以简单随机抽样的变异数予以取代。但二者有时无法取代，若要估计变异数时，则可采重复系统抽样法，亦即抽出一个以上的系统样本。再来要介绍系统抽样法的抽样步骤，当母体内单位数为N，欲每间隔k个样本抽取一个样本。
将母体分成   区。
由1到k间个数中，随机抽取一个随机始数，设为r。
则样本为
称为n个系统样本。

【例】
拟就连续制造灯泡的公司计划生产5,000个产品，检查其不良比例。假设所需抽取的样本数为50，若采用系统抽样法则其步骤如下：
Step1.15,000个产品(N)本身的生产顺序，即可做为假想的编号。
Step2.决定抽样区间k，而k必须为最接N/n的整数：故可计算出k=5000/50= 100，抽样区间为100。
Step3.利用简单随机抽样法从001到100间随机抽取某数，如抽出为21号。
Step4.则以后每生产100个，便将其抽出。也就是说，生产顺序列为第21, 121, 221, 321, … , 4921的产品，即为被抽出的样本。

群集抽样法(cluster sampling)
有时母体底册的搜集及编造极为困难或庞大，而在调查时又希望节省成本时，则可采用群集抽样法。举例来说，在森林区的材积调查中，将调查区划分多个小块以为群集。又如在住户调查中，以邻或区段作为群集以进行访查。所以群集抽样法可说是一种抽样极为方便、调查容易的抽样方法。

群集抽样法的优点是(i)母体底册的编造较为简单；(ii)调查行动半径较小，调查成本较低；(iii)行政管理较为容易；和(iv)通信调查时交较易宣传及进行。而此种方法的限制是(i)群集内样本单位的一致性太强，则易浪费样本；和(ii)群集大小的决定。使用此法最好时机是当(i)母体底册不易获得时；(ii)为简省调查成本时；及(iii)群集内差异大，而群集间的变异小。

采用群集抽样法进行样本调查时，要注意到以下两个原则。亦即，(i)根据经验、试查及实际状况以决定适当的群集；和(ii)确定群集间变异小，而群集内变异大。群集抽样法有三个抽样步骤，分别介绍如下。
Step1.决定群集的大小：根据经验、试查及实际状况来决定。
Step2.建立各样本群集的母体底册或划定范围：可以建立名册，亦可以标示(或图标)样本的范围。
Step3.二段群集抽样的考虑：群集内的同构型太高，或样本群集内样本单位过多时，可采此方法。

【例】假设某公司拟用群集抽样法调查台北地区每月消费在甲产品的支出，计划在所有非商业区中随机抽出5个区(初级单位,fsu)。然后再在每一抽出的区中随机抽出一条街(如遇街道跨区时，则仅就属于该区内的住户全数调查)作调查单位(次级单位,ssu)。则此抽样步骤即为
Step1.将所有非商业区(住宅区)予以编号，如
　01：大安区
　02：景美区
Step2.就上述所编的号码随机抽出五个区域(群集)。
Step3.就所抽出的区域编列出有关的街道名称并顺序予以编号。
Step4.然后再就所抽出的各区中再随机抽取一个街。
Step5.就所抽出的各街全部调查，其结果可能如下表所示：
区域	每区的街数	被抽到的街名	被抽到街名的住户
大安区
景美区
松山区
士林区
内湖区	40
25
35
45
30	××街
××街
××街
××街
××街	225
156
315
270
190

分段抽样法
上述诸种抽样方法通常仅适用于母体总个数(population size)不很大的时候，若母体总个数太大，则易发生以下各种困难：(i)准备母体资料的底册(frame)的困难；(ii)调查均匀分散的抽样单位，所费时间、人力及财力太多；和(iii)抽样单位(sampling unit)广泛分布时，执行抽样计划不易，遂有进行分段抽样的必要。

分段抽样法大致可分为二段抽样法、三段抽样法及多段抽样法。当进行分段抽样法时，首先以阶层分类法(hierarchal classification)编制数据，先将母体资料依某条件分成M个互斥的(disjoint)类别(class)，以i=1,2,…,M为其第号，每个类别中分别含有 个单位，以简单随机抽样法自M个类别中抽取m个类别，的后再自该m个类别中每类别分别以简单随机抽样法抽取 个单位结合组成一个样本，此即二段抽样法；其中样本大小为n，且为
 ,。
其中每个类别(class)称为第一段抽样单位(primary sampling unit, 简称psu)，而同一类别的单位称为第二段抽样单位(secondary sampling unit, 简称ssu)。换言的，进行二段抽样法时，并不是经由一次直接自母体抽出n个单位组成样本，而是以第一段先抽出m个类别，第二段再由此m类别所含全部个体中分别抽出若干单位，来组成样本。

若上述的单位仍然不是最基本的抽样单位，而每单位中各含有 个基本抽样单位，则可继续自抽出来的 个单位中分别随机抽取 个基本抽样单位以组成样本，此即为三段抽样法；其中样本大小为p，且为
 ,
其中该基本抽样单位称为第三段抽样单位(third sampling unit, 简称为tsu)。同理若上述的基本单位仍非最基本的抽样单位，则亦可按照上述方法继续进行多段抽样法。

现以目前暂行的水稻产量调查法为例来加以说明。假设在综合栽培乡某乡中共有100个小区，随机抽取4个小区，每小区取2个坵田，每坵田取2个坪割点；显然的这种抽样计划在应用统计学上，可称为三段抽样法(three stage sub-sampling)，即以每小区为第一段抽样单位psu，再以每坵田为第二段抽样单位ssu，最后以各坪割点为第三段抽样单位tsu。
因为分段抽样法在抽样时，并非由母体的所有抽样单位中直接随机抽出单位以组成样本，而仅就母体的所有抽样单位中某些种类的抽样单位里随机抽样以组成样本，故常会省时、省工、省钱且合乎经济原则。但也正因如此，一般情形下，使用分段抽样法来估计各种母体参数(population parameter)时，其准确度常会较抽样对象为所有母体抽样单位的简单随机抽样法为低；但当第一段抽样单位间变异甚小时，此项准确度的降低甚微，而如果不超过决策者所能容忍的程度，则分段抽样法，有其确切而实际的用途。

\section{各种抽样方法之适用时机、步骤及估计量}
(一)影响抽样调查结果准确度的因素
为使抽样估计值能达到估计全事物的目的，需考虑影响其准确的各种因素：
原始资料的变异程度
样本数的大小
抽样方法
分层抽样法抽样的不同

(二)估计值准确度构成的条件
不偏性(unbiased ness)
有效性(efficiency)
充分性(sufficiency)
一致性(consistency)

不偏性(unbiased ness)
定义 ，其中 表示期望值。本定义即说明，统计量的期望值等于参数，这种性质叫做不偏性。举例来说，假设某母体大小为 ，且母体平均为 ，今从母体内抽取出一组样本 ，求得平均为 ，若 ，则 称为 的不偏估计值。

有效性(efficiency)
定义 ；此定义的意思是说，若同时有二个统计量( 及 )，其中一个统计量的变异数较另一个统计量的变异数为小，则变异数小的那个统计量便具有「有效性」。举例来说，假设母体平均值为 ，而估计 的统计量有中位数(median)及算术平均数(arithmetic mean)，但因为前者的变异数大于后者的变异数，则算术平均数具「有效性」。

充分性(sufficiency)
定义 ；此定义的意思是说，假设母体参数为 ，但若样本统计量 可直接由样本观测值去估计，而与 无关，则叫 具有充份性。

一致性(consistency)
定义 ；此定义的意思是说，当样本大小 趋近于无穷大( )时，统计量即等于参数，这种性质叫做符合一致性。例如，当 增大为 时，则所求得的 趋近于 ，亦即 ，故可知 具有一致性。
(三)估计的方法
在某些情况下，如所需的原始数据不易得到，或得到的数据所要花费的金钱、时间较多时，可用辅助变量(auxiliary variable or concomitant variable) ，此类变量值的取得代价较低。举例来说，目测值花费时间、金钱较评估估计值所费均少，估计得较准确的估计值 ，每个抽样单位有两个变量值 ， 与 之间有相关(correlation)存在，母体总合 必须已知。另外，估计值估计的方法有下列二种：(1)比率估计法(ratio estimation)，和(2)回归估计法(regression estimation)。

(四)母体与参数及样本与统计量
母体与参数
同类个体的全部记录集合一起，使组合成一个全体(aggregate)，这个全体称为母体(population)，母体种类很多，表示其特征的方法有「图表法」、「常数法」等。利用常数法研究母体即由母体中计算出若干稳定常数，此等常数有介绍母体特性的作用称为参数(parameters)包括有四类：
(1)测定母体趋中性：主要有算术平均、型量、中位数等。
(2)测定分散度：主要有变异数、均方、标准偏差。标准偏差 愈大，则母体中所有个体间的变异愈大。
(3)测定偏歪度：主要有Fisher氏的 系数，E. S. Pearson氏的 系数。
(4)测定频度分布的曲线峰度：常用有Fisher氏的 系数，及Geary氏的 系数。

样本与统计量
母体涵盖范围很大，资料经统计分析后，所得结论的适当范围必很大；所须顾虑者，乃在于母体范围过大时，搜集、计数、度量及统计工作随着浩大，所费时间、金钱往往无法许可，故只好由样本数据来推断母体的特性。

来自同样个体的全部N个个体中只抽出n个单位进行计数，度量而得 个单位的记录(N>n)集结此n个单位记录在一起，便构成一个样本(sample)，再由样本数据求得某一统计值来估计参数，此估计值称为统计量(statistic)。因样本有抽样变异，故统计量亦有抽样变异，如把母体中可能发生的样本全部取出，然后求得各样本的某种统计量，再求统计量的总平均值，此总平均值称为某统计量的期望值，若某统计量的估计方法适当，则该统计量即母体参数。抽样方法的不同，及抽样单位的不同会改变统计量的大小，改变对该母体的代表程度。

(五)各种抽样方法之适用时机、步骤及估计量

\subsection{样本质量的评估}

国内有些学者认为，其评估的基本方法，是将样本的某些特征与总体的同类特征进行比较，如果发现二者之间的差别不大，则可以认为样本的质量较高，代表性较好，反之，则说明样本的代表性较差。本文则强调，在具体的调查研究过程中，这种评估的方法既不可行，也不科学。

在不考虑非抽样误差的前提下，评估样本的代表性其实是评估其抽样误差的大小。采用简单随机抽样方法的意义在于，研究者能够得知样本统计值（如样本均值）的抽样分布，从而能够根据中心极限定理建立起样本统计值与总体参数值之间的联系，并能计算出抽样误差的大小。然而，抽样误差（即样本均值的抽样分布的标准差）所反映的是所有可能的样本均值在总体均值附近的平均变异程度，是一种理论上的平均误差，对于一个具体样本而言，我们无法知道该样本均值与未知的总体均值之间的实际差异到底是多少，也即无法知道其抽样误差到底是多少。因此，实际上，我们无法采用将一个具体样本的某些特征与总体的同类特征进行比较的方法来评估该样本的代表性。正因为如此，评估一个具体样本的代表性的方法，不是依据该样本所具有的特征，而是判断它是不是一个概率样本。要做这样的判断，只能依据实际抽取该样本的具体方法和具体程序。或者换句话说，对一个具体样本的代表性的评估，其实是对实际抽取该样本的具体方法和具体程序进行评估。因此，研究者应该在自己的研究报告中清楚地、详细地公布这方面的信息，如公布样本的抽取是否严格遵循了概率抽样程序、在具体的实施过程中有没有未应答现象、应答率是多少、是否发生过样本替换、替换了多少、是怎么替换的等方面的信息，以便读者对其样本的代表性的高低做出正确的判断。
